高级检索
全部 主题 学科 机构 人物 基金
词表扩展: 自动翻译: 模糊检索:
当前位置:首页>
分享到:

应用于网上图书领域的Deep Web实体识别

建立Deep Web集成系统是目前的研究热点,但由于不同网站对同一实体的数据描述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是Deep Web集成系统中一个至关重要的环节,它的目的就是去掉结果中的重复数据,即降低数据的冗余度。本文主要对Deep Web数据集成中的实体识别进行了深入的研究。
   针对中文图书领域Deep Web实体识别,通过分析各个网站对图书信息的描述形式,发现不同的网上书店对同一本书的描述通常存在着差别,而对不同图书的描述又可能非常相近。由于上述情况的存在,本文提出了基于改进Jaccard系数和领域本体的Deep Web实体识别方法。在图书文本属性中,直接应用Jaccard系数进行计算,不能解决在文本属性中出现的某一属性值非常相近而其他各个属性都完全相同的情况。本文在实体识别的过程中对Jaccard系数进行了两点改进,一是为文本分词后的单词增加权重系数,二是字符串匹配时的包含关系用系数m来确定。利用改进Jaccard系数法计算文本相似度,能很好的解决上述情况。本文结合领域本体中的同义词库进行图书属性匹配,来解决作者属性中存在中英文以及出版社属性中存在简写的情况。由于各个属性在识别时所占的重要程度不同,所以本文利用层次分析法获得各个属性的权重,然后加权相加计算实体相似度,从而整合重复实体。实验表明,该方法对中文图书领域的Deep Web实体识别具有较高的准确率。
  

作者:
李英华
学位授予单位:
河北大学
专业名称:
计算机软件与理论
授予学位:
硕士
学位年度:
2010年
导师姓名:
王煜;袁方
中图分类号:
TP311.13;TP391.43
关键词:
网上图书;Deep Web实体识别;Jaccard系数;文本相似度;图书属性匹配
原文获取
正在处理中...
该文献暂无原文链接!
该文献暂无参考文献!
该文献暂无引证文献!
相似期刊
相似会议
相似学位
相关机构
正在处理中...
相关专家
正在处理中...
您的浏览历史
正在处理中...
友情提示

作者科研合作关系:

点击图标浏览作者科研合作关系,以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络:

点击图标浏览该主题词的知识脉络关系,包括相关主题词、机构、人物和发文刊物等。

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

检索设置


请先确认您的浏览器启用了 cookie,否则无法使用检索设置!  如何启用cookie?

  1. 检索范围

    所有语言  中文  外文

  2. 检索结果每页记录数

    10条  20条  30条

  3. 检索结果排序

    按时间  按相关度  按题名

  4. 结果显示模板

    列表  表格

  5. 检索结果中检索词高亮

    是 

  6. 是否开启检索提示

    是 

  7. 是否开启划词助手

    是 

  8. 是否开启扩展检索

    是 

  9. 是否自动翻译

    是